Análisis Exploratorio de los Datos

Notebook para hacer un análisis exploratorio de los datos

Leyendo datos

Descripción de las variables

Se usan los datos sup.

Diccionario de los datos

Visualizaciones

No se observa normalidad en las columnas numéricas, por lo que no sirviría el método de curva elíptica.

Veamos primero un par de interacciones de variables.

Detección de Anomalías

One-Class Support Vector Machine

Graficación de los outliers

Considerando solamente 4 características en el ajuste del One-Class SVM

El dataframe

Considerando solamente 2 características en el ajuste del One-Class SVM

Conclusiones

como es de esperarse, al aplicar el método OC-SVM a las 7 variables numéricas, podemos ver que en todas las gráficas de pares se encuentran outliers. Mientras que se van considerando menos variables para la filtración de los outliers, se encuentran menos.

En este caso se fijo el parámetro nu = 0.15 para considerar la misma proporción de outliers en los 3 casos.

Considerando solo las variables de número de sesiones y número de usuarios vemos que se quedan algunas gráficas de pares sin filrar datos outliers.

El caso equilibrado parece ser considerar las variables de tiempo junto con las de sesiones, que son las siguientes

Parece filtrar bien como se observa en las gráficas de número de sesion y número de usuario contra el número de llamads únicas a la API, dejando un comportamiento que se ajustaría bien con una regresión lineal.

Por otro lado, para la gráfica de número de usuarios contra número de sesiones parece filtrar excesivamente y romper la tendencia de linealidad que se observa.